Search CORE

6 research outputs found

Desain Machine Learning Features pada Model Credit Scoring di PT JULO Teknologi Finansial

Author: Karissa Vincentio Felicia
Publication venue
Publication date: 01/01/2019
Field of study

Laporan kerja magang ini berisi mengenai implementasi kegiatan kerja magang pada PT JULO Teknologi Finansial. Tugas utama yang diberikan adalah mendesain machine learning features pada model credit scoring di PT JULO Teknologi Finansial. Machine learning features ini dibuat dengan tujuan agar dapat membantu performa model credit scoring dalam mengklasifikasikan aplikasi pinjaman dalam tingkatan tertentu. Data pendukung dari pembuatan features merupakan informasi detail dari aplikasi android pada Google Playstore yang berkategorikan finance. Dari data pendukung dan juga beberapa data pengguna yang ada dalam database perusahaan, dapat terbentuk dua macam features berupa jumlah dari aplikasi android berkategorikan finance yang diunduh tiap aplikasi pinjaman dan juga feature turunan yang didapatkan dari feature jumlah aplikasi android dan durasi unduh antaraplikasi pada tiap aplikasi pinjaman. Features dapat memberi dampak yang cukup signifikan dalam performa model yang diukur dalam metrik penilaian performa AUC dibuktikan dengan masuknya features ke dalam 50 (lima puluh) features teratas dari kurang lebih 800 (delapan ratus) features diurutkan dari yang paling berpengaruh

UMN Knowledge Center

Rancang Bangun Language Model Bahasa Indonesia Menggunakan Metode BERT

Author: Karissa Vincentio Felicia
Publication venue
Publication date: 01/01/2020
Field of study

Natural Language Processing (NLP) merupakan salah satu subbidang pada Artifical Intelligence yang berkembang pesat. NLP banyak dikembangkan melalui pendekatan machine learning hingga deep learning. BERT adalah pengembangan metode state-ofthe-art pada arsitektur deep learning dalam ranah NLP. BERT yang dikenalkan oleh Google, merupakan model representasi bahasa unsupervised pertama yang menggunakan konsep bidirectional, dan di-pretrain hanya dengan teks korpus tanpa label. Google juga telah menyediakan model yang telah di-pretrain dengan menggunakan Cloud TPUs dengan korpus berukuran sangat besar. Terdapat beberapa model pretrained yang disediakan oleh Google, dan salah satu model tersebut adalah Multilingual BERT, sebuah model BERT pretrained yang dilatih dengan dataset yang terdiri dari 104 bahasa pada satu model BERT. Namun, terdapat banyak kasus di mana model BERT Multilingual tidak dapat memberikan performa yang memuaskan ketika model di-finetune pada downstream task yang hanya melibatkan satu bahasa yang spesifik. Dikarenakan belum terdapat model BERT pretrained dalam bahasa Indonesia yang opensource, penelitian ini dilakukan untuk membuat language model berbahasa Indonesia yang dapat dikembangkan ke downstream task yang menggunakan Bahasa Indonesia. Pada penelitian ini Bahasa BERT mampu melampaui performa Multilingual BERT dalam tugas klasifikasi teks. Bahasa BERT juga memerlukan waktu dalam proses finetuning yang lebih singkat dibandingkan dengan Multilingual BERT, membuatnya lebih cepat dan cost-effective

UMN Knowledge Center

NusaCrowd: Open Source Initiative for Indonesian NLP Resources

We present NusaCrowd, a collaborative initiative to collect and unify existing resources for Indonesian languages, including opening access to previously non-public resources. Through this initiative, we have brought together 137 datasets and 118 standardized data loaders. The quality of the datasets has been assessed manually and automatically, and their value is demonstrated through multiple experiments. NusaCrowd's data collection enables the creation of the first zero-shot benchmarks for natural language understanding and generation in Indonesian and the local languages of Indonesia. Furthermore, NusaCrowd brings the creation of the first multilingual automatic speech recognition benchmark in Indonesian and the local languages of Indonesia. Our work strives to advance natural language processing (NLP) research for languages that are under-represented despite being widely spoken

arXiv.org e-Print Archive

Desain Machine Learning Features pada Model Credit Scoring di PT JULO Teknologi Finansial

Author: Karissa Vincentio Felicia
Publication venue
Publication date: 01/01/2019
Field of study

UMN Knowledge Center

Rancang Bangun Language Model Bahasa Indonesia Menggunakan Metode BERT

Author: Karissa Vincentio Felicia
Publication venue
Publication date: 01/01/2020
Field of study

UMN Knowledge Center